第 4 章 · AI不等于大模型

第4章第1节 AI不等于大模型

Tip

告别了第1章的核心理论，我们准备开始大模型的实战。后续的章节将反复印证理解第1章的知识是多么的重要。

阅读指南

大多数非程序员在谈到AI时通常指的是DeepSeek、豆包这些大语言模型。
渐渐地，一个错误的等式形成了：
AI = 大语言模型。
但这是错的。大模型是当前AI领域最耀眼的明星，但它只是AI这个广阔领域中的一个分支。

1.1 什么是AI

人工智能(Artificial Intelligence)这个词诞生于1956年的达特茅斯会议。当时，一群计算机科学家聚在一起，提出了一个大胆的设想：

"制造出能够模拟人类智能行为的机器"。

从那时起，AI就成为了一个领域：只要是让机器展现"智能"行为的技术，都可以被称为AI。

但问题来了:什么算"智能"?

AI这个概念经历了三次重要的发展浪潮：

第一次浪潮(1956-1974):符号主义AI

那个年代，研究者认为智能的本质是逻辑推理和符号操作。

典型代表包括专家系统和逻辑推理引擎。专家系统把人类专家的知识编码成规则，逻辑推理引擎用if-then规则解决问题。

例如，一个医疗诊断系统可能是这样的：

IF 患者发烧 AND 咳嗽 AND 流鼻涕
THEN 诊断为感冒，建议多喝水休息

这是AI吗，在当时，这就是AI。

但很快人们发现，真实世界太复杂了。没法用有限的规则覆盖所有情况。医生的经验，很多时候是"直觉"，而不是明确的规则。

第二次浪潮(1980-2010):机器学习AI

研究者转变了思路，与其手工编写规则，不如让机器从数据中学习规律。

典型代表包括决策树、随机森林、支持向量机和贝叶斯网络。决策树和随机森林从样本数据中学习分类规则，支持向量机找到最优分类边界，贝叶斯网络基于概率推理。

例如，一个垃圾邮件分类器，不再手工写规则，而是从数据中学习：

训练数据:
"免费赠送" → 垃圾邮件 ✓
"会议安排" → 正常邮件 ✓
"中奖通知" → 垃圾邮件 ✓
...10000封邮件

机器学习模型自动总结规律:
包含"免费"、"中奖"、"点击链接" → 垃圾概率90%
包含"会议"、"项目"、"附件" → 正常概率85%

这个阶段的AI已经能做很多实用的事，包括信用卡欺诈检测、亚马逊的商品推荐系统、基于特征工程的人脸识别。

这些，也是AI。

但它们有个共同特点，需要大量的人工特征工程。工程师要手工提取"有用的特征"，然后喂给模型。

第三次浪潮(2012-至今):深度学习AI

2012年，一个叫AlexNet的深度神经网络在ImageNet图像识别竞赛中碾压了所有传统方法。一切都变了。

深度学习的革命性突破在于，不再需要人工设计特征，让神经网络自己学习特征。

典型代表包括卷积神经网络用于图像识别和物体检测、循环神经网络用于语音识别和机器翻译、Transformer用于语言理解和文本生成，这也是大模型的基础。

深度学习AI的能力边界迅速扩展，AlphaGo击败围棋世界冠军、自动驾驶汽车上路、语音助手走进千家万户、人脸识别精度超过人类。

这些，仍然是AI。

从这段历史可以看出，AI不是某种特定技术，而是一个目标，让机器表现出智能。实现这个目标的手段，一直在演进：

50年代:符号推理
90年代:统计学习
10年代:深度神经网络
20年代:大规模预训练模型

大语言模型，只是当前这个阶段实现AI的一种方式。

它很强大，但它不是AI的全部，甚至未来可能会被更先进的技术取代。

Tip

理解这一点很重要，现在已经有不少领域专家在讨论Transformer的缺陷，甚至批评人类沉醉于Transformer架构"不思进取"。Transformer很厉害，但人类不可能永远停留在当前架构下。

1.2 大模型的定位

理解了AI是一个广阔的领域后，让我们看看大模型在其中的位置。

人工智能（AI）
│
├── 符号主义AI：专家系统、逻辑推理
│
├── 机器学习
│ ├── 传统机器学习：决策树、SVM、贝叶斯
│ │
│ └── 深度学习
│ ├── 计算机视觉：CNN、ViT、YOLO
│ ├── 语音识别：WaveNet、Whisper
│ └── 自然语言处理
│ ├── 传统NLP（LSTM、GRU）
│ └── 大语言模型（LLM）★
│ ├── GPT系列
│ ├── LLaMA
│ └── DeepSeek

大语言模型只是深度学习的一个分支，而深度学习又只是AI的一个分支。

大模型的三个核心特征

什么样的模型才能叫"大模型"，有三个核心特征：

规模巨大
参数量：数百亿到数千亿（GPT-3是1750亿，GPT-4、5.x只会更多）
训练数据：数万亿token（几乎整个互联网的文本）

相比之下，2018年的BERT模型"只有"3.4亿参数，在当时已经算大了。GPT-3比BERT大了500倍。BERT（Bidirectional Encoder Representations from Transformers）是Google在2018年发布的预训练语言模型，通过双向理解上下文来学习词语含义，在当时引发了NLP领域的革命。

通用能力

大模型不是为某个特定任务训练的，而是在海量文本上做通用预训练：

没有专门训练翻译，但能翻译
没有专门训练写代码，但能写代码
没有专门训练做数学题，但能做数学题

这种"涌现能力"（Emergent Abilities）是大模型的标志性特点。当模型规模达到某个临界点，就会突然展现出训练时没有明确教它的能力。

基于Transformer架构

几乎所有当前的大语言模型，都基于Transformer架构：

国际主流：GPT系列（OpenAI）、LLaMA系列（Meta）
国产代表：DeepSeek（深度求索）、通义千问（阿里）

Transformer的自注意力机制，让模型能处理超长上下文，理解词与词之间的复杂关系。这也是为什么从美国的GPT，到中国的DeepSeek，几乎所有大模型都选择了这个架构，它已被证明是当前实现大规模语言理解的最优解。

大模型不能代表的AI技术

理解了大模型的定位，就能看清一个事实：很多AI技术，跟大模型没什么关系。

计算机视觉领域的图像分类（ResNet、EfficientNet）、物体检测（YOLO、Faster R-CNN）大多基于CNN，跟大语言模型的Transformer架构不同，应用场景也不同。

语音识别领域的Whisper（OpenAI的语音识别模型）、WaveNet（Google的语音合成），虽然Whisper也用了Transformer，但它处理的是音频，不是文本。

推荐系统领域的协同过滤（Amazon早期的推荐算法）、深度学习推荐模型（Wide&Deep、DeepFM）、图神经网络推荐（GNN-based），这些系统关注的是"预测用户偏好"，而不是"理解和生成语言"。

强化学习领域的AlphaGo（围棋）、OpenAI Five（Dota2游戏AI）、机器人控制，这些AI通过"试错"学习策略，跟大模型的"预测下一个词"完全不同。

1.3 AI开发的现状

我们现在所做的AI开发，是不是主要是大模型相关应用的开发?

在很大程度上，确实如此。

打开招聘网站，搜索"AI开发工程师"，职位要求高度集中在：

必备技能:

熟悉GPT、Claude等大语言模型API

掌握Prompt Engineering(提示词工程)

了解RAG(检索增强生成)

会用LangChain、LlamaIndex等框架

理解Function Calling、Agent机制

加分项:

有微调(Fine-tuning)经验

了解向量数据库(Pinecone、Chroma)

会部署开源大模型(LLaMA、Qwen)

几乎所有技能都围绕大语言模型。

再看看近两年的AI应用创业公司，产品类型也高度集中:

AI写作助手:Notion AI
AI知识库: NoteBookLM
AI编程助手:Cursor、TRAE
多模态:豆包、通义千问

核心都是调用大模型API，包装成垂直场景的应用。

为什么会形成这种局面，因为大模型的出现，让AI应用开发的门槛几乎消失了。

以前要做一个AI应用，需要选择算法、设计网络、准备数据、训练模型、优化参数，需要深厚的机器学习功底和大量算力。

现在，只需要：

from openai import OpenAI

client = OpenAI(api_key="密钥")

response = client.chat.completions.create(
    model="qwen3-max",
    messages=[
        {"role": "user", "content": "帮我总结这篇文章"}
    ]
)

这让AI开发"平民化"了。它再也不是只有少数数学功底好的精英才能驾驭的技术。

1.4 大语言模型的能力边界

虽然当前大模型应用开发很火，但把AI等同于大模型，会带来认知误区。

大模型擅长自然语言理解和生成、文本内容创作、代码生成和解释、逻辑推理（通过Chain-of-Thought）、知识问答。

大模型不擅长实时决策（自动驾驶需要毫秒级响应）、精确计算（数学公式求解容易出错）、图像生成（需要专门的扩散模型如Stable Diffusion）、物理世界交互（机器人控制需要强化学习）。

其他AI技术也有其独特价值。计算机视觉用于医学影像诊断和工业质检，语音识别用于实时字幕和语音转文字，推荐系统用于电商和短视频推荐，强化学习用于游戏AI、机器人控制和资源调度优化。

这些任务，大模型做不了，或者做得不如专门的AI模型。

1.5 实际开发中的选择

理论讲完了，回到实战：作为开发者，怎么选择用大模型还是其他AI技术？

可以参照以下决策思路：

任务是否涉及自然语言理解或生成？如果是，考虑大模型。
任务通用、数据少，用大模型API（智能客服、内容生成、代码助手）；任务专一、数据多、成本敏感，用传统NLP模型（垃圾邮件分类、关键词提取）。
如果不涉及自然语言，考虑其他AI技术。图像/视频处理选择计算机视觉（人脸识别、物体检测），推荐/预测选择推荐系统或时间序列模型（商品推荐、股价预测），语音处理选择语音识别/合成模型，决策优化选择强化学习（游戏AI、机器人控制）。

大模型对于自然语言的理解与文本的生成是其强大的能力，如果确实需要对接处理自然语言，大模型必然是首选。

给出一些场景选型案例：

智能客服选择大模型

用户问法千变万化，无法穷举规则，需要理解自然语言的语义，希望回复自然、多样，而不是模板化。

电商商品推荐选择推荐系统

基于用户行为数据，而非语言理解。调用频率极高（每个用户每次刷新都要推荐），成本敏感，大模型API成本太高。

法律合同审查选择大模型+专业模型混合

需要理解合同条款（自然语言）用大模型，但法律领域专业性强，需要微调或专业模型。示例代码如下：

示例:

# 第一步:用大模型提取关键信息
extracted_info = gpt_extract_clauses(contract_text)

# 第二步:用专业的法律NLP模型分析风险
risk_analysis = legal_model.analyze(extracted_info)

# 第三步:用大模型生成审查报告
report = gpt_generate_report(risk_analysis)

混合使用，发挥各自优势。

1.6 大模型可能只是过渡形态

把视野放远一点，思考一个问题：

大模型会是AI的终极形态吗？

答案是，不会。它很可能只是一个过渡阶段。

如果把AI的发展看作几个阶段：

第一阶段：符号主义（1950-1980）→ 手工编写规则
第二阶段：统计学习（1980-2010）→ 从数据中学习规则
第三阶段：深度学习（2010-2020）→ 自动学习特征表示
第四阶段：大模型（2020-?）→ 大规模预训练+通用能力
第五阶段：??? → 可能是具身智能 + 持续学习 + 多模态融合

大模型很可能是第四到第五阶段的过渡。

"大模型时代，是AI从'狭隘专家'走向'通用智能'的关键一步，但它还不是终点。"

1.7 冷知识：抖音的推荐算法是怎么做到让人"停不下来"的？**

很多同学会好奇：抖音的推荐为什么这么准，为什么总能刷到喜欢的内容？

恰巧字节跳动在2025年3月首次公开了推荐算法原理。虽然这和本书的主题不相关，但这是一个非大模型AI技术的绝佳案例，展示了AI领域的多样性。

抖音推荐系统采用四层技术架构。第一层是双塔召回模型，想象红娘介绍相亲，不会让所有人见面，而是先筛选出"可能合适"的候选者。双塔召回模型从数百万视频中，通过计算用户兴趣编码和视频内容编码的相似度，快速筛选出几百个候选。

第二层是Wide&Deep模型，Wide部分记住明确偏好（点赞过10个美食视频就推荐美食），Deep部分发现潜在兴趣（喜欢美食的人70%也喜欢旅游），既能"投其所好"，又能"拓宽视野"。

第三层是多目标建模，早期推荐系统只看完播率，现在综合评估完播率、点赞概率、评论概率、分享概率、关注概率等多个指标。

第四层是底层引擎Monolith，这是字节自研的推荐系统框架，支持实时训练（用户刚点赞一个视频，几分钟后推荐就会调整）、处理万亿级别特征、毫秒级完成推荐计算。

秘密在于精准的正反馈循环：用户刷到喜欢的视频多看了几秒，AI立即捕捉偏好，下一个视频更精准推荐，循环加速，越刷越准。

这和大模型完全是两个世界的AI技术。

1.8 下一节预告

理解了"AI不等于大模型"之后，下一个问题来了：

当我们真正要开发AI应用时，该从哪里入手？

可能已经有了一个运行良好的传统业务系统，电商平台、企业管理系统、在线教育平台……现在想接入AI能力，该怎么做？

又或者，想从零开始开发一个AI原生应用，智能客服、AI写作助手、代码生成工具……架构该如何设计？

下一节《AI应用开发的正确姿势》将为你揭晓。

1.9 ■ 学点英语

中文	English	音标	说明
人工智能	Artificial Intelligence	/ˌɑːrtɪˈfɪʃl ɪnˈtelɪdʒəns/	让机器展现智能行为的技术领域，不等于大模型
机器学习	Machine Learning	/məˈʃiːn ˈlɜːrnɪŋ/	让机器从数据中自动学习规律，而非手工编写规则
大语言模型	Large Language Model (LLM)	/lɑːrdʒ ˈlæŋɡwɪdʒ ˈmɑːdl/	基于Transformer的大规模预训练语言模型，AI的一个分支
涌现能力	Emergent Abilities	/iˈmɜːrdʒənt əˈbɪlətiz/	模型规模达到临界点后突然展现出未明确训练过的能力
深度学习	Deep Learning	/diːp ˈlɜːrnɪŋ/	用多层神经网络自动学习特征表示的AI方法

1.10 ■ 思考帧

◀ 幻觉

返回目录

▶ 理解大模型开发（一）

第4章 第1节 AI不等于大模型